Loading...
机构名称:
¥ 1.0

rt-detr是第一个实时端到端变压器对象检测器。它的效率来自框架工作设计和匈牙利匹配。然而,匈牙利匹配提供了密切的匹配,可提供大量的较少范围,从而导致模型训练不足和难以实现最佳结果。为了解决这些问题,我们提出了一种基于RT-Det的层次密集的积极监督方法,称为RT-DETRV3。首先,我们介绍了一个基于CNN的辅助分支,该分支提供了密集的监督,该分支与原始解码器合作以增强编码器的功能表示形式。其次,为了解决解码器培训不足,我们提出了一种新颖的学习策略,涉及自我注意力扰动。该策略使跨多个查询组的阳性样品分配了标签分配,从而丰富了积极的范围。此外,我们引入了一个共享的权重编码器分支,以进行密集的积极监督,以确保与每个地面真相相匹配的更多高质量查询。值得注意的是,所有上述模块都仅训练。我们进行了广泛的实验,以证明我们在可可VAL2017上的方法的有效性。rt-detrv3明显胜过现有的实时检测器,包括RT-DETR系列和Yolo系列。例如,RT-DETRV3-R18达到48.1%AP(+1.6%/+1.4%),同时维持相同的潜伏期。此外,RT-DETRV3-R101可以达到令人印象深刻的54.6%AP优于Yolov10-X。该代码将在https://github.com/ clxia12/rt-detrv3上发布。

arxiv:2409.08475v3 [CS.CV] 2024年12月19日

arxiv:2409.08475v3 [CS.CV] 2024年12月19日PDF文件第1页

arxiv:2409.08475v3 [CS.CV] 2024年12月19日PDF文件第2页

arxiv:2409.08475v3 [CS.CV] 2024年12月19日PDF文件第3页

arxiv:2409.08475v3 [CS.CV] 2024年12月19日PDF文件第4页

arxiv:2409.08475v3 [CS.CV] 2024年12月19日PDF文件第5页

相关文件推荐